%Априорное распределение 0-1(известны измерения и оценки на
%шумы)
Так как в данном случае априорная статистическая информация о параметре $b$
отсутствует, воспользуемся опять соображениями здравого смысла, а именно, предположим, что
в некоторой окрестности истинного значения неизвестного параметра $q(b)=const$.
%, т.е.
%предположим, что $b$ равномерно распределена на некотором отрезке
%содержащем истинное значение параметра.
Заметим также, что так как параметр $b$ не является случайным, вместо условной плотности $p(y|b)$
можем записывать $p(y;b)$, таким образом
% мы предполагаем,что в некоторой
%окрестности истинности параметра $b$ плотность $q(b)=const$
$$p(b|y=y^*)=\frac{const}{p(y^*)}\max_{b}p(y;b)$$
%Считаем,что $b$-параметр,а не случайная величина.
Апостериорная плотность будет иметь вид $$p(y^*;b)=p(y_1^*,\ldots,y_k^*;b),$$
 ее называют функцией правдоподобия и обозначают $L(y_1^*,\ldots,y_k^*;b)$
%\rightarrow p(c_{1}...c_{k};b),$$где
%$y(1)=c_{1},...,y(k)=c_{k}$,то есть мы зафиксировали $y$.\\
% $p(c_{1}...c_{k};b)=L(c_{1}...c_{k};b)$-функция правдоподобия.\\
На практике очень часто функция правдоподобия принадлежит экспоненциальному семейству, поэтому вместо
того, чтобы максимизировать саму функцию, переходят к задаче максимизации ее натурального
логарифма. Это возможно, т.к.  $\ln$ монотонно возрастающая функция.
%, следовательно для удобства, задачу о поиске максимума
% функции правдоподобия можно заменить на задачу поиска максимума ее логарифма:
Необходимое условие экстремума в данном случае примет вид:
 $$
\left. \frac{\partial \ln L(c;\beta)}{\partial
 \beta}\right|_{\beta=\beta_{\mbox{омп}}}=0.
 $$
Решение этого уравнения  $\beta_{\mbox{омп}}$ называется оценкой максимального правдоподобия (ОМП), а метод ее
получения методом максимального правдоподобия.
Этот метод один из наиболее широко используемых на практике, так как часто делаются
 предположения о плотности распределения шумов, а это единственная необходимая для его применения
 априорная информация.

 В случае, когда и эта информация недоступна используют хорошо известный
  метод минимальных квадратов, как построить оценку этим методом будет показано в дальнейшем.
%\\Изобразим на
%графике:\\
%%\mbox{\includegraphics[11cm,9cm]{3.bmp}}\\
%\insertpicture {3}{3.bmp}{Oценка максимального правдоподобия.
%}{11cm}{9cm}

\subsubsection{Гауссовский пример}
Рассмотрим пример вычисления ОМП.
\begin{ex}
Пусть по измерениям нужно найти оценку максимального правдоподобия $\beta_{\mbox{омп}}$ неизвестного скалярного
параметра
$b$:
$$
y_i=u_ib+n_i, \quad i=1,\ldots,k.
$$
Входные параметры $u_i, \quad i=1,\ldots,k$ известны, шумы $n(i), \quad i=1,\ldots,k$ ---
независимые одинаково распределенные случайные величины $n_i \sim
\mathcal{N}(0,\sigma^2_{n}), \quad i=1,\ldots,k$.
%, а также $n(i), \quad i=1,\ldots,k$ ---
% независимы в совокупности.
\end{ex}
Плотность шумов имеет вид: %Выпишем плотность шумов
$$
p(n_i)=\frac{1}{\sqrt{2\pi}\sigma_{n}}\exp\left\{-\frac{n_i^2}{2\sigma^2_{n}}\right\},
$$
заметим, что $n_i=y_i-u_ib, \quad i=1,\ldots,k.$.

Выпишем функцию правдоподобия
$$
L(y;b)=\prod_{i=1}^{k}p(y_i;b)=\frac{1}{(2\pi)^{\frac{k}{2}}\sigma_{n}^{k}}\prod_{i=1}^{k}
\exp\left\{-\frac{1}{2}\frac{(y_i-u_ib)^{2}}{\sigma^2_{n}}\right\}
$$
Найдем ее логарифм
$$
\ln L(y;b)=C-\frac{1}{2\sigma_{n}^{2}}\sum_{i=1}^{k}(y_i-u_ib)^{2}
$$
Выпишем необходимое условие оптимальности, которое в данном случае является также и достаточным.
$$
\left.\frac{\partial \ln L(y;b)}{\partial
b}\right|_{\beta=\beta_{\mbox{омп}}}=-\frac{1}{\sigma_{n}^{2}}\sum_{i=1}^{k}u_i(y_i-u_i\beta_{\mbox{омп}})=0
$$
откуда %$\Rightarrow$
$$\beta_{\mbox{омп}}=\frac{\sum_{i=1}^{k}u_iy_i}{\sum_{i=1}^{k}u_i^2}.$$

\begin{task}
Выписать ОМП в случае, если отказаться от требования, что
$n(i), \quad i=1,\ldots,k$ --- независимы.
\end{task}

\begin{task}
Сравнить полученную оценку с оценкой (*). При каких условиях они совпадают.
\end{task}



Обсудим вопрос о том, насколько точна может быть ОМП.
\subsubsection{Достижимая точность ОМП}
Рассмотрим функцию правдоподобия
$$L=L(y(1),...,y(k);b).$$
Далее будем предполагать, что все производные, которые нам понадобятся, существуют.

Так как $L$ --- плотность, то:\\
$$\int...\int L dy(1)...dy(k)=\int...\int L d^ky=1.$$
Продифференцируем по $b$:
$$\int...\int  \frac{\partial L}{\partial b}d^ky=0.$$
Это выражение можно переписать как
$$\int \frac{\partial L}{\partial b}d^ky=\int
(\frac{1}{L}\frac{\partial L}{\partial b}) L d^ky=\int
\frac{\partial ln L}{\partial b}L d^ky=\mathbb{E}\frac{\partial ln
L}{\partial b}=0. \quad \quad\quad\quad(\ast)$$
Продифференцируем по $b$ еще раз, имеем:
$$\int\left\{
\left(\frac{\partial log L}{\partial b}
\right)^{2}+\frac{\partial^{2} ln L}{\partial b^{2}}
\right\}Ld^ky=0,$$
или
 $$\mathbb{E}\left(\frac{\partial ln L}{\partial
b}\right)^{2}=-\mathbb{E}\frac{\partial^{2} ln L}{\partial b^{2}}.
\quad\quad\quad\quad\quad\quad\quad\quad(\ast\ast)$$
Пусть $\widehat{\beta}$ --- какая-то оценка. Выпишем ее математическое ожидание.\\
$\mathbb{E}\widehat{\beta}=\int \widehat{\beta}L
dy=f(b)=b+\lambda(b)$, если оценка несмещенная, тогда $\lambda(b)=0.$
Дифференцируя, имеем:
$$\int \widehat{\beta}\frac{\partial ln L}{\partial b}L d^ky=
1+ \frac{d\lambda(b)}{db}. \quad\quad\quad\quad\quad\quad\quad\quad(\ast\ast\ast) $$
Найдем $(\ast\ast\ast)-f(b)(\ast)$: %\{$f(b)=const$\}:
$$\int(\widehat{\beta}-f(b))\frac{\partial log L}{\partial b} L d^ky
= 1 + \frac{d\lambda(b)}{db}.$$
По неравенству Коши-Буняковского:\\
$$\int(\widehat{\beta}-f(b))^{2}L d^ky \int\left(\frac{\partial log
L}{\partial b}\right)^{2} L
d^ky\geq\left(1+\frac{d\lambda(b)}{db}\right)^{2}$$
Из $(\ast\ast)$ получаем неравенство Рао-Крамера:\\
$$Var\widehat{\beta} \geq
-\frac{\left(1+\frac{d\lambda(b)}{db}\right)^{2}}{\mathbb{E}\frac{\partial^{2}ln
L}{\partial b^{2}}}.$$
Если мы находимся в классе несмещенных оценок, то
$$Var\widehat{\beta}\geq-\frac{1}{\mathbb{E}\frac{\partial^{2} ln L}{\partial b^{2}}}.$$

Если $b$ --- вектор, то
$$J=\mathbb{E}\frac{\partial ln L}{\partial b}\left(\frac{\partial ln L}{\partial b}\right)'
= -\mathbb{E}\frac{\partial^{2} ln L}{\partial b\partial b'},$$
где $J$ --- информационная матрица Фишера. И неравенство можно переписать в виде:
$$\cov\widehat{\beta}\geq J^{-1}.$$


\subsubsection{Свойства оценок максимального правдоподобия}
\begin{enumerate}
\item Ассимптотическая эффективность
$$\eta(\widehat{\beta})=\frac{\min_{\beta}(var\beta)}{var\widehat{\beta}}\rightarrow_{k\rightarrow\infty}1$$
\item Ассимптотическая несмещенность
$$\mathbb{E}\widehat{\beta}\rightarrow b,k\rightarrow\infty$$
\item Ассимптотическая нормальность
$$p(c,\widehat{\beta})\rightarrow \mathcal{N}(b,J^{-1}),k\rightarrow\infty$$
\item Cостоятельность
$$\lim_{k\rightarrow\infty}\mathbb{P}(|\widehat{\beta}(y)-b|\leq\varepsilon)=1$$
\item Инвариантность \\ Если $\widehat{\beta}$-оценка
максимального правдоподобия $b$,то $g(\widehat{\beta})$-оценка
максимального правдоподобия для $g(b)$ \item Если существует
$\widehat{\beta}$ --- достаточная оценка,тогда:\\
$$p(y(1),...,y(k);b)=g(\widehat{\beta},b)H(y(1),...,y(k)),$$следовательно, любое
решение уравнения правдоподобия есть $g(\widehat{\beta})$
%\item
%Если существует оценка $\widehat{\beta}$,обращающая неравенство
%Рао-Крамера в равенство,тогда уравнение правдоподобия имеет
%единственное решение.
\end{enumerate}
\begin{note}
Если искать ОМП в классе несмещенных оценок, то она будет эффективной. Крамер показал, что если существует эффективная оценка, то уравнение правдоподобия имеет единственное решение.
\end{note}

Покажем на примере как найти эффективную оценку.
\begin{ex}
$$ y = ub + n \ \ \, \ \ \ y = (y(1), \ldots, y(k))  \ \ u - \mbox{матрица, } b - \mbox{вектор} \ $$
$$p(n) = \frac{1}{(2\pi)^{\frac{k}{2}}|N|^\frac12} \ \exp\{-\frac12 n'
N^{-1}n\}$$
Построить оценку максимального правдоподобия. Показать, что она является эффективной, т.е. обращает неравенство Рао-Крамера в равенство.
\end{ex}
Выпишем функцию правдоподобия:
$$L(y;b) = \frac{1}{(2\pi)^{\frac{k}{2}}|N|^\frac12} \ \exp\{-\frac12 (y - ub)'N^{-1} (y - ub)\}$$
$$\ln L(y;b) = const  -\frac12 (y - ub)'N^{-1} (y - ub) \ \mbox{ И т.к }  (y - ub)'N^{-1}u  = u' N^{-1}(y - ub)  \ \Rightarrow$$
$$\frac{\partial \ln L(y;b)}{\partial b} = u' N^{-1}(y - ub) \ \ \Rightarrow \ \ \frac{\partial^2 \ln L(y;b)}{\partial b^2} = -u' N^{-1}
u$$
Значит, информационная матрица Фишера имеет вид:
$$ \mathbf{J} =  -\E \frac{\partial^2 \ln L(y;b)}{\partial b^2} = \E u' N^{-1}u
$$
Предположим, что входы известны, тогда
$$
\mathbf{J} =  u' N^{-1}u
$$
Выпишем неравенство Рао-Крамера:
$$\cov\ \beta \geq (u' N^{-1} u)^{-1}$$
Теперь найдем оценку  максимального правдоподобия:
$$ \frac{\partial \ln L(y;b)}{\partial b} \mid _{b = \widehat{\beta}} = u' N^{-1} (y - u \widehat{\beta}) = 0$$

$$\Longrightarrow \widehat{\beta}_{\mbox{омп}} = (u' N^{-1} u)^{-1} u' N^{-1}y$$
Нетрудно видеть, что ковариационная матрица этой оценки совпадает с информационной  матрицей Фишера.


%Для гауссовского случая при нахождении минимума функционала
% $\min\limits_{b} \|y- ub\|^2_{N^{-1}} = \|y-
% u\widehat{\beta}_{\mbox{гм}}\|^2_{N^{-1}}$, где $\widehat{\beta}_{\mbox{гм}}$
% называется гауссовско-марковской оценкой, верно :
%$$\widehat{\beta}_{\mbox{омп}} = \widehat{\beta}_{\mbox{гм}} $$
%Свойства гауссовско-марковской оценки:
%\begin{enumerate}
%\item эффективность
%\item линейность
%\item несмещенность
%\end{enumerate}
%
%\quad Теперь предположим, что $N = \sigma_n^2 I$, тогда при
%минимизации функционала
%$$\min\limits_{b} \|y- ub\|^2 \mbox{ получим: } \\ \widehat{\beta} = (u'u)^{-1} u' y $$
%Но эта оценка уже не является эффективной (уметь доказывать).\\

До настоящего момента матрицу Фишера рассматривали при условии, что входы $u$ --- известны
$\mathbf{J} = -u'N^{-1} u$. % \mbox{ - апостериорная оценка}$.
Если же допустить, что входы --- случайные величины и $n$ --- белый шум, то
$$N^{-1} = \frac{1}{\sigma_n^2} I  \ \ \mbox{, тогда }
\mathbf{J} = -\frac{1}{\sigma_n^2} \E u' u.$$
это априорная оценка матрицы Фишера. Каким образом на нее будут влиять измерения? 

Следующий пример показывает, что в рассматриваемом случае с ростом числа измерений информационная матрица будет увеличиваться и, следовательно, точность эффективной оценки будет повышаться.
\begin{ex}
Рассмотрим
$$
y(i) = b_0 u(i) + b_1 u(i-1) + n(i),
$$
 где $u(i)$
--- стационарный случайный процесс, т.е. $\cov \, (u(i)\,u(i-1)) = \rho
\, \sigma_u^2$ и $D u(i) = \sigma_u^2.$\\
\end{ex}

Рассмотрим матрицу
$$
    \mathcal{U} =
    \left(\begin{matrix}
    u(k) & u(k-1) \\
    u(k-1) & u(k-2) \\
    \ldots & \ldots \\
    u(1) & u(0)
    \end{matrix}\right)
    $$
    $$
    \mathcal{U}'\mathcal{U} =
    \left(\begin{matrix}
    \sum_{i=1}^k u^2(i) & \sum_{i=0}^{k-1}u(i)u(i+1) \\
    \sum_{i=0}^{k-1}u(i)u(i+1) & \sum_{i=0}^{k-1}u^2(i)
    \end{matrix}\right)
    $$
     Отсюда получаем, что
$$
    \E \mathcal{U}^{\large{'}}\mathcal{U} =
      \left(\begin{matrix}
      k\sigma_u^2 & k\rho\sigma_u^2 \\
      k\rho\sigma_u^2 & k\sigma_u^2
      \end{matrix}\right)
      =
      k\sigma_u^2
      \left(\begin{matrix}
      1 & \rho \\
      \rho & 1
      \end{matrix}\right).
      $$
 Построим апостериорную оценку матрицы Фишера
        $$
        \mathbf{J}=-\frac{1}{\sigma_n^2}{E}\mathcal{U}'\mathcal{U}
        =-k \, \frac{\sigma_u^2 }{\sigma_n^2}\,
\left(\begin{array}{cc}
1    & \rho \\
\rho & 1
\end{array}\right).
$$

%$$\E u u' = k \,\psi_{u \,u} = k \,
%\left(\begin{array}{cc}
%\sigma_u^2       & \rho \,\sigma_u^2\\
%\rho \,\sigma_u^2& \sigma_u^2
%\end{array}\right) = k \, \sigma_u^2 \,
%\left(\begin{array}{cc}
%1    & \rho \\
%\rho & 1
%\end{array}\right).$$
%Откуда
%$$
%\mathbf{J}= -k \, \frac{\sigma_u^2 }{\sigma_n^2}\,
%\left(\begin{array}{cc}
%1    & \rho \\
%\rho & 1
%\end{array}\right).
%$$
Найдем ковариационную матрицу эффективной оценки
$$\cov\beta = -(\mathbf{J})^{-1} = \frac{\sigma_n^2}{k\,\sigma_u^2}\,\frac{1}{1 - \rho^2}
\left(\begin{array}{cc}
1    & -\rho \\
-\rho & 1
\end{array}\right).$$
Отсюда видно, что с ростом числа измерений ковариация эффективной оценки становится меньше.
%Применим к матрице $\cov \beta$ ортогональное преобразование:
%$$\mathbf{T} = \frac{1}{\sqrt{2}}
%\left(\begin{array}{cc}
%1  & 1 \\
%-1 & 1
%\end{array}\right)$$


%________

%\\
%\begin{center}
%  $ y(i) = \beta_0 u(i) + \beta_1 u(i-1) + \eta(i),$ \\
%  $ {D}u(i) = \sigma_u^2,$ \\
%  $ \cov(u(i),u(i-1)) = \rho \sigma_u^2$,\\
%    \[
%    \mathcal{U} =
%    \begin{Vmatrix}
%    u(k) & u(k-1) \\
%    u(k-1) & u(k-2) \\
%    \ldots & \ldots \\
%    u(1) & u(0)
%    \end{Vmatrix}
%    \]
%    \[
%    \mathcal{U}'\mathcal{U} =
%    \begin{Vmatrix}
%    \sum_{i=1}^k u^2(i) & \sum_{i=0}^{k-1}u(i)u(i+1) \\
%    \sum_{i=0}^{k-1}u(i)u(i+1) & \sum_{i=0}^{k-1}u^2(i)
%    \end{Vmatrix}
%    \]
%\end{center}
%    Отсюда получаем, что
%\begin{center}
%    \[{E}\mathcal{U}^{\large{'}}\mathcal{U} =
%      \begin{Vmatrix}
%      k\sigma_u^2 & k\rho\sigma_u^2 \\
%      k\rho\sigma_u^2 & k\sigma_u^2
%      \end{Vmatrix}
%      =
%      k\sigma_u^2
%      \begin{Vmatrix}
%      1 & \rho \\
%      \rho & 1
%      \end{Vmatrix}.
%      \]
%        $J=\frac{1}{\sigma_u^2}{E}\mathcal{U}'\mathcal{U}$--                                                                             матрица Фишера.
%  \[
%  \cov\widehat{\beta} =
%  \frac{\sigma_{\eta}^{2}}{k\sigma_u^2}\frac{1}{1-\rho^2}
%  \begin{Vmatrix}
%  1 & \rho \\
%  \rho & 1
%  \end{Vmatrix}
%  \equiv C
%  \begin{Vmatrix}
%  1 & \rho \\
%  \rho & 1
%  \end{Vmatrix}.
%  \]
%\end{center}
Далее при помощи ортогонального преобразования, покажем как построить
эллипсоид рассеивания и показать, что с ростом числа измерений он стягивается в точку.

  Произведем преобразование, заданное следующим образом:

  $\beta = (\beta_0,\beta_1)'\to \gamma = (\gamma_0,\gamma_1)'$,
  $$
  T = \frac{1}{\sqrt{2}}
  \begin{Vmatrix}
  1 & 1 \\
  -1 & 1
  \end{Vmatrix},
  $$
$$
 \gamma= T\beta = \frac{1}{\sqrt{2}}
  \begin{Vmatrix}
  1 & 1 \\
  -1 & 1
  \end{Vmatrix}
  \begin{Vmatrix}
  \beta_0 \\
  \beta_1
  \end{Vmatrix}
  = \frac{1}{\sqrt{2}}
  \begin{Vmatrix}
  \beta_0 & \beta_1 \\
  -\beta_0 & \beta_1
  \end{Vmatrix}
  = \gamma.
  $$

  Как найти матрицу ковариаций $\cov \widehat{\gamma}$? Ответ на этот   вопрос дает следующая лемма.
  \begin{lemma} \label{7-l1}
  Пусть $\beta$ и $\gamma$-- случайные векторы, связанные соотношением
  $$
  \gamma = T \beta.
  $$
  Тогда матрицы ковариаций этих векторов связаны следующим соотношением:
  \begin{equation}
  	\cov\widehat{\gamma} = T \cov\widehat{\beta}T'.
  \end{equation}
  \end{lemma}
  \begin{proof}
  Имеем следующее равенство:
  \begin{equation}
  \gamma_i = \sum_{k=1}^n t_{ik}\beta_k.
  \end{equation}
  Отсюда получаем, что
  \begin{center}
  $$ \gamma_i\gamma_j = \sum_{k,l=1}^n t_{ik}t_{jl}\beta_k\beta_l,
   {E}\gamma_i\gamma_j = \sum_{k,l=1}^n t_{ik}t_{jl}{E}\beta_k\beta_l,
  {E}\gamma_i{E}\gamma_j = \sum_{k,l=1}^n t_{ik}t_{jl}{E}\beta_k{E}\beta_l,
  {E}\gamma_i\gamma_j - {E}\gamma_i{E}\gamma_j = \sum_{k,l=1}t_{ik}t_{jl}({E}\beta_k\beta_l-{E}\beta_k{E}\beta_l)
  $$.
  \end{center}
  В силу последнего равенства получаем, что
  \begin{center}
  $\{cov\widehat{\gamma}\}_{ij} = \sum_{k,l=1}^n t_{ik}\{\cov\widehat{\beta}\}_{kl}t_{lj}' = \sum_{l=1}^n
  \{T \cov\widehat{\beta}\}_{il}t_{lj}' = \{T \cov\widehat{\beta}T'
  \}_{ij}$,
  \end{center}
  что и требовалось доказать.
  \end{proof}
Пользуясь последней леммой, получаем, что
\begin{center}
  \[
  \cov\widehat{\gamma} = \frac{C}{2}
  \begin{Vmatrix}
  1 & 1 \\
  -1 & 1
  \end{Vmatrix}
  \begin{Vmatrix}
  1 & -\rho \\
  -\rho & 1
  \end{Vmatrix}
  \begin{Vmatrix}
  1 & -1 \\
  1 & 1
  \end{Vmatrix}
  = C
  \begin{Vmatrix}
  1 - \rho & 0 \\
  0 & 1 + \rho
  \end{Vmatrix},
  \]
\end{center}
где $C$ пропорциональна $\frac{1}{k}$ и компоненты вектора $\gamma$ --- некоррелированы.
С ростом $k$ эллипсоид рассеивания стягивается в точку, точность оценки увеличивается.

\subsubsection{Случай случайных входов}